【数据库注释】数据库注释信息总结 |
您所在的位置:网站首页 › 数据库 注释 › 【数据库注释】数据库注释信息总结 |
1.前言 一般注释内容分为6个部分: 基因及区域注释(2-22) 数据库(频率)注释(23-33) 保守(有害)性预测(34-49) 变异位点信息(50-56) 基因功能及通路注释(57-68) 基因的组织特异性表达情况的注释(69-73) 数据库注释信息的解读基本包含,下面将分别对这六个部分进行介绍,基本上能用到的数据库注释信息都在这了,以下对每列表头信息进行解释: 第一部分:基因及区域注释信息(1)CHROM: 染色体 (2)POS: 变异位点在染色体上的绝对位置 (3)ID: dbSNP注释ID (4)REF: 参考基因组碱基型 (5)ALT: 样本基因组碱基型 (6)QUAL: 变异的质量值,值越高越好。文献中常见以变异的质量值大于20为过滤标准 (7)FILTER: 过滤TAG,如果该位点满足所有过滤条件,则标记为PASS(采用国际惯用的过滤标准) (8)GeneName: 基因名称注释,列出该变异所在的基因 (9)Description: 变异位点所在基因的描述 (10)Func:对变异位点所在的区域进行注释(exonic, splicing, UTR5, UTR3, intronic, ncRNA_exonic, ncRNA_intronic, ncRNA_UTR3, ncRNA_UTR5, ncRNA _splicing, upstream, downstream, intergenic)。 (11)Gene: 列出该变异位点相关的转录本(只有功能符合Func列的转录本才列出)。如果Func列为intergenic,此处列出两侧的基因名 (12)GeneDetail: 描述UTR、splicing、ncRNA_splicing或intergenic区域的变异情况。 (13)ExonicFunc: 外显子区的SNV 或 InDel变异类型(SNV的变异类型包括synonymous_SNV, missense_SNV, stopgain, stopgloss和unknown;InDel的变异类型包括frameshift insertion, frameshift deletion, stopgain, stoploss, nonframeshift insertion, nonframeshift deletion和unknown) (14)AAChange: 氨基酸改变。 (15)Gencode: Gencode注释的基因名称 (16)cpgIslandExt:CpG岛预测结果,注释结果为CpG岛名称,如CpG: 116(116是该CpG岛中CG二核苷酸的数目) (17)cytoband:该变异位点所处的染色体区段(利用Giemas染色观察得到的)。如果变异位点跨过多个区段,用短横线连接 (18)wgRna: 基于miRBase和snoRNABase,对变异位点相关的microRNA和snoRNA进行注释,给出microRNA和snoRNA的基因名称 (19)targetScanS: UCSC提供TargetScanS注释数据库,库中包含在3’UTR中保守的microRNA结合位点,来源于TargetScanHuman 5.1的预测结果;该软件预测microRNA的靶点,预测结果依据microRNA与靶点之间结合的效能进行排序,排名越靠前,说明microRNA与其靶点的结合越可能是实际存在的事件。 (20)tfbsConsSites: 基于transfac矩阵数据库(v7.0),计算所有转录因子结合位点在人/小鼠/大鼠比对中的保守分值 (21)genomicSuperDups:检测该变异位点是否位于重复片段(segmental duplication)中。 (22)Repeat: 重复序列注释信息,重复序列来源于RepeatMasker注释。 第二部分:数据库(频率)注释(23)avsnp: 该变异在dbSNP中的ID (24)ClinVar: 注释变异与人类疾病之间的关系,临床意义的数据来源于NCBI (25)gwasCatalog: 检测变异位点是否在以往的GWAS研究中被报导,表示该变异位点与哪些疾病相关联,"."表示没有GWAS报导。 (26)1000g_Chinese: 给出千人基因组计划数据的中国人群中,该变异位点上突变碱基的等位基因频率 (27)1000g_EAS: 给出千人基因组计划数据的东亚人群中,该变异位点上突变碱基的等位基因频率 (28)1000g_ALL:给出千人基因组计划数据的所有人群中,该变异位点上突变碱基的等位基因频率 (29)esp6500si_all: 国家心肺和血液研究所外显子组测序计划(NHLBI-ESP project,esp6500si_all数据库中包含SNP变异、InDel变异和Y染色体上的变异的所有个体中,突变碱基的等位基因频率(alternative allele frequency) (30)GnomAD_ALL_AF:指在所有人群中,该变异位点上突变碱基的等位基因频率 (31)GnomAD_ALL_AN:指在所有人群中,该变异位点上突变碱基的等位基因的数目 (32)GnomAD_EAS_AF:指在所有亚洲人群中,该变异位点上突变碱基的等位基因频率 (33)GnomAD_EAS_AN:指在所有亚洲人群中,该变异位点上突变碱基的等位基因基因的数目 第三部分:保守(有害)性预测(34)dbscSNV_SCORE: dbscSNV是基于多种预测突变是否影响splicing的软件,通过Ada和RF两种机器学习方法得到两个综合的预测分值。 (35)spidex:预测基因突变如何影响RNA剪接, (36)Interpro_domain: Interpro数据库注释的突变位点所在蛋白质的结构域 (37)SFT: SIFT分值(dbNSFP version3.0),表示该变异对蛋白序列的影响。逗号前后分别是SIFT_score和SIFT_pred:SIFT_score是SIFT分值, SIFT_pred是预测结果,取值为T或者D。 (38)Polyphen2_HVAR: 利用PolyPhen2基于HumanVar数据库预测该变异对蛋白序列的影响,用于单基因遗传病(dbNSFP version3.0)。该列包含两个值,第一个是PolyPhen 2分值;第二个是D或P或B(D: Probably damaging (>=0.909), P: Possibly damaging (0.447 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |